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基于 LDA 和 word2vec 的 英文 作文 跑题 检测 
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摘 要 : 针对 目前 国内 的 英语 作文 辅助 批阅 系统 缺少 准确 而 高 效 的 跑题 检测 算法 的 问题 ， 提 出 了 一 种 结合 LDA 和 
word2vec 的 跑题 检测 算法 。 该 算法 利用 LDA 模型 对 文档 建 模 并 通过 Word2vec 对 文档 训练 ， 利 用 得 到 的 文档 主题 和 词 
语 之 间 的 语义 关系 ， 对 文档 中 各 主题 及 其 特征 词 计算 概率 加 权 和 ， 最 终 通过 设 定 合 理 冰 值 筛选 出 跑题 作文 。 实 验 中 通 
过 改变 文档 的 主题 数 而 得 到 的 不 同 F 值 ， 确 定 了 最 佳 主题 数 。 实 验 结果 表明 新 方法 比 基 于 向 量 空间 模型 的 方法 更 具有 
效 性 ， 可 以 检测 到 更 多 的 跑题 作文 并 且 准 确 率 较 高 ，EF 值 达 到 89% 以 上 ， 实 现 了 作文 跑题 检测 的 智能 化 处 理 ， 可 以 有 
效 地 应 用 在 英语 作文 教学 中 。 
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Off-topic detection for English essays based on LDA and word2vec 


Qu Qiang, Cui Rongyi, Zhao Yahuif 
(ntelligent Information Processing Laboratory, Dept. of Computer Science & Technology, Yanbian University, Yanji Jilin 
133002, China) 


Abstract: Aiming at the problem that the lack of accurate and efficient off-topic detection algorithm for the current English 
composition teaching system in China, proposed an off-topic detection algorithm of LDA and word2vec in this paper. The 
algorithm used LDA to model the documents and train it with word2vec, with obtained semantic relation between document's 
topic and words, calculated the probability weighted sum of each topic and its feature words in the document. Finally, by setting 
reasonable threshold, selected the off-topic essays. According to the different F values for the different number of topics in the 
document, determined the optimum number of topics in the experiment. The experimental results show that, compared to 
traditional vector space model, the proposed method can detect more off-topic essays with higher accuracy, and the F value is 
above 89%, which realizes the intelligent processing of off-topic essays detection, and may applies effectively in English essays 
teaching. 
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档 集 中 出 现 该 词 的 频率 来 表征 词 的 权 


引言 


余弦 值 来 计算 文本 的 相似 度 。 词 袋 模型 方法 虽然 简单 而 且 有 


EE， 通 过 计算 向 量 之 间 的 


Es 


作文 是 一 种 表达 情感 和 传递 信息 的 重要 手段 ， 而 主题 则 是 。 定 效果 ， 但 是 这 种 方法 忽略 了 文档 中 词 项 本 身 的 语义 信息 ， 没 


作文 的 灵魂 。 一 篇 作文 最 重要 的 就 是 主题 明确 并 且 正 确 ， 否 则 有 考虑 到 词 与 词 之 间 的 语义 相似 度 。 比如 对 于 英文 单词 "like” 和 
坚 ， 甚 至 跑题 。 作 文 跑题 的 原因 很 多 ， 可 能 “love”, 它们 都 可 以 表示 为 喜欢 的 意思 , 但 在 向 量 空间 模型 中 ， 
是 作者 有 意 为 之 ， 也 可 能 是 无 意 间 的 提交 错误 口 。 就 会 把 它们 当 作 两 个 独立 的 词 项 。 为 了 解决 这 个 缺点 ， 有 研究 

用 于 判断 一 篇 作文 是 否 跑题 ， 其 核心 内 容 是 人员 提 出 了 词 扩展 的 方法 ,比如 使 用 WordNet、HowNet 等 词 出 
计算 文本 之 间 的 相似 度 疡 ， 文 本 相似 度 是 表示 文本 间 相 似 程度 。 进行 词 扩 展 ,文献 [3] 提 出 了 基于 WordNet 词 扩 展 计算 英语 词汇 


容易 造成 混淆 和 误 久 


作文 跑题 检测 


的 衡量 参数 。 目 前 最 常用 、 最 经 典 的 文本 表示 模型 是 向 量 空间 语义 相似 度 的 方法 ， 文 献 [外 提出 了 基于 HowNet 计算 词汇 语义 


模型 ， 


nT 


出 现 频率 以 及 在 文 ”的 时 候 可 能 会 遇 到 很 多 问题 。 
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其 于 向 量 空间 模型 的 TF-IDF 算法 是 使 用 最 广泛 的 文本 ”相似 度 的 方法 。 这 些 方法 都 很 依赖 人 工 构造 的 词典 ， 出 现 新 词 
相似 度 计算 的 方法 。 这 种 方法 以 词 在 文档 
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本 文 是 针对 以 上 方法 的 不 足 ， 提 出 了 一 种 新 的 文本 相似 度 
计算 方法 并 根据 此 方法 进行 英文 作文 的 跑题 检测 。 该 算法 通过 
LDA 主题 模型 对 文档 集 建 模 , 得 到 每 个 文档 的 主题 和 主题 的 特 
征 词 以 及 它们 的 概率 分 布 , 并 和 word2vec 训练 得 到 的 词 与 词 之 
间 的 语义 关系 进行 结合 , 计算 出 文档 的 各 个 主题 的 概率 加 权 和 ， 
判定 作文 是 否 偏离 主题 。 该 方法 的 提出 可 以 有 效 地 检测 到 跑题 
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率 分 布 。 
1.2 ”Gibbs 抽样 

在 构建 LDA 模型 的 过 程 中 需要 进行 模型 参数 的 估计 ， 比 
较 常 用 的 估计 方法 主要 有 变 分 贝 叶 斯 推理 、 期 望 传播 算法 和 
Collapsed Gibbs 抽样 等 ， 基 于 Gibbs 抽样 的 参数 推理 方法 容易 
里 解 而 且 实现 简单 ， 能 够 非常 有 效 地 从 大 规模 文本 集中 抽取 主 


的 作文 ， 与 传统 的 向 量 空间 模型 相 比 ， 本 文 的 方法 不 但 可 以 得 


题 中 。 因 此 Gibbs 抽样 算法 成 为 了 当前 最 流行 的 LDA 模型 抽取 


到 词 项 之 间 的 更 多 的 语义 信息 ， 还 可 以 通过 对 文档 建 模 得 到 文 
档 的 主题 分 布 情况 ， 弥 补 了 传统 向 量 空间 模型 方法 没 考虑 到 词 
本 身 语 义 信息 的 不 足 。 

1 LDA 建 模 

1.1 LDA 模型 


LDA (latent dirichlet allocation) 模型 是 由 Blei 等 人 提出 的 
一 个 “文本 一 主题 一 词 ” 的 三 层 贝 叶 斯 产生 式 模型 品 , 它 是 在 概 
率 隐 性 语义 索引 (probabilistic latent semantic analysis, pLSA) 上 
扩展 得 到 的 三 层 贝 叶 斯 概率 模型 ， 该 模型 包含 词 、 主 题 和 文档 
三 层 结 构 。 该 模型 是 一 种 非 监 督 的 机 器 学 习 算法 ， 可 以 用 来 识 
别 大 规模 文档 集 或 语料库 中 潜在 的 主题 信息 。 它 采用 了 词 袋 模 
型 (bag of words) 的 方法 ， 这 种 方法 将 每 一 篇 文档 视 为 一 个 词 
频 向 量 ， 从 而 将 文本 信息 转换 为 了 便于 建 模 计算 的 数字 信息 。 
该 模型 基于 这 样 一 种 前 提 假 设 :文档 是 由 若干 个 隐 含 主题 构成 ， 
而 这 些 主题 是 由 文本 中 若干 个 特定 词汇 构成 ， 忽 略 文档 中 的 名 
法 结构 和 词语 出 现 的 先后 顺序 器。 
LDA 主题 模型 可 以 用 一 个 概率 图 模型 表示 , 其 表示 形式 如 
1 所 示 。 


DP 


图 1 LDA 模型 图 


LDA 模型 由 超 参数 & 和 确定， 其 中 & 表示 文档 集合 中 
隐 含 主题 之 间 的 相对 强 弱 ， 反映 了 所 有 隐 含 主题 的 自身 的 概 
率 分 布 。 在 图 1 中 M 表示 文档 集 的 文档 数 , 天 表示 文档 集中 的 
主题 数 , N 表示 每 篇 文档 包含 的 特征 词 数 ，0, 表示 第 m 篇 文档 
中 所 有 主题 的 概率 分 布 ， 扩 表示 某 一 特定 主题 下 的 特征 词 的 概 


算法 。 
Gibbs 抽样 方法 是 一 个 简单 的 并 且 应 用 广泛 的 
MCMC(Markov chain Monte Carlo) 算 法 ，Griffiths 提出 将 Gibbs 
采样 方法 应 用 于 LDA 模型 的 参数 估计 名, 每 个 主题 下 的 特征 词 
项 概率 分 布 和 每 篇 文档 的 主题 概率 分 布 是 在 LDA 模型 中 最 重 
要 的 两 个 参数 。 
Gibbs 抽样 算法 具体 步骤 如 下 《该 算法 
详 见 文献 [9] ): 
a) 初 始 化 主题 zx 被 初始 化 为 1 到 7 之 间 的 某 个 随机 整数 ， 
i 从 1 循环 到 N,N 是 语料库 中 所 有 出 现在 文本 中 的 特定 词 的 个 
数 ， 此 为 Markov 链 的 初始 状态 。 
b) 循 环 采 样 。 经 过 迭代 足够 多 的 次 数 以 后 , 直到 Markov 链 


体 推导 过 程 可 以 


接近 目标 分 布 ， 此 时 的 主题 z 可 以 按照 如 下 公式 估算 $ 和 0 的 
值 。 
加 = La +p 
Dn +p (1) 
O° 至 ne 十 Qt 
"Pte 0 


其 中 : nv" 表示 的 是 第 个 主题 出 现 第 t 个 特征 词 的 次 数 ，n%” 
表示 的 是 第 m 篇 文档 出 现 第 个 主题 的 次 数 。 通 过 Gibbs 抽样 
间接 得 到 的 pg 和 0 值 , 记 为 后 验 概率 P(z, =k|z,,w) ,其 计算 公 
式 如 下 : 


(Dn) 
sy 0, 水 7 十 hb. 


K 


> 
Pa, +w) Da,+p) 
{1 


ji 


G) 


式 (3) 中 因为 z 表示 第 守 个 词 项 对 应 的 主题 变量 ， 环 表 
示 不 包括 其 中 的 第 i 项 , 所 以 z 表示 所 有 主题 z(k 关 ) 的 概率 
分 配 。z,, 表示 特征 词 1 属 于 主题 的 词 频 ; z, "表示 文档 m 分 
配给 主题 的 特征 词 集 的 规模 。 
1.3 LDA 建 模 过 程 

本 文 在 对 进行 LDA 建 模 之 前 ， 对 于 给 定 的 文档 集合 
D={d,d,,…d,} ， 需 要 对 每 篇 文档 d,(d, e D) 进行 预 处 理 ， 主 
要 包括 分 词 、 去 停 用 词 、 去 标点 符号 等 操作 ， 将 处 理 后 的 每 个 
词 项 用 空格 分 隔 保 存 ， 整 理 后 获得 对 应 的 语 料 集 ， 将 其 作为 下 
一 步 的 处 理 数据 。 

将 处 理 后 的 语 料 以 一 篇 文档 的 形式 呈现 出 来 ， 构 建 出 文档 
- 词 项 矩阵 。 最 终 文 本 表示 形式 如 式 〈4) 所 示 。 
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Ws Wi,» 人 
D= Ws Wo ee WW, (4) 
w, Wo 


M1 Mn 


其 中 : M 代表 文档 总 数 ，m 代表 文档 序号 ，w,, 表示 第 m 篇 文 
档 的 第 nn 个 词 项 。 


对 于 语料库 中 的 每 篇 文档 ，LDA 给 出 了 如 下 的 生成 过 程 : 


word2vec 语言 模型 02]， 月 


年 开放 了 word2vec 这 
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于 计算 词 向 量 。Google 公司 在 2013 


款 用 于 训练 词 


的 开源 软件 


工 


具 [13] 。 


志 
中 
四 


word2vec04 模 型 可 以 根据 给 定 的 语料库 ， 通 过 优化 后 的 训练 模 


型 快速 有 效 地 将 一 个 词语 表达 成 实数 值 的 向 量 形式 ， 它 可 以 通 
过 利用 词 的 上 下 文 信息 把 对 文本 内 容 的 处 理 简 化 为 K 维 向 量 运 


算 , 而 向 量 空间 
word2vec 输出 


上 的 相 
的 词 向 量 可 以 月 


以 度 可 以 ) 


来 表示 文本 语义 上 的 相似 度 。 


日 来 做 很 多 NLP 相关 的 工作 ， 比 


如 情感 分 类 、 找 近义词 、 


a) 从 狄 利克 雷 分 布 & 中 取样 生成 第 m 个 文档 的 主题 分 布 


0,; 
b〉 从 主题 的 多 项 式 分 布 6, 中 

个 词 的 主题 zw ; 
c) 从 狄 利克 雷 分 布 B 中 取样 生成 主题 zx 对 应 的 词语 分 布 


取样 生成 第 m 个 文档 的 第 7 


从 ; 
d) 从 词语 的 多 项 式 分 布 作 ,中 采样 最 终生 成 词语 w， 。 
于 LDA 模型 认为 一 篇 文章 是 有 多 个 主题 的 ， 而 每 个 主 
题 又 对 应 着 不 同 的 词 。 一 篇 文章 的 构造 过 程 ， 首 先是 以 一 定 的 
概率 选择 某 个 主题 ， 然 后 再 在 这 个 主题 下 以 一 定 的 概率 选 出 某 
一 个 词 ， 这 样 就 生成 了 这 篇 文章 的 第 一 个 词 。 不 断 重复 这 个 过 
程 ,就 生成 了 整 片 文章 ,当然 这 里 假定 词 与 词 之 间 是 没 顺序 的 。 
本 文 参数 估计 利用 MCMC00 方 法 中 的 Gibbs 抽样 山 算法 ， 
它 可 以 看 做 是 文档 生成 过 程 的 逆 过 程 ， 即 在 已 知 文档 集 〈 文 档 
生成 的 结果 ) 的 情况 下 ， 通 过 参数 估计 得 到 参数 值 。 根 据 图 1 
的 模型 图 ， 可 以 得 到 一 篇 文档 的 概率 分 布 : 


plolmp=|p OW 1Dp opels,pYd 


通过 Gibbs 抽样 算法 可 以 基于 语 料 训练 LDA 模型 ,训练 的 
过 程 就 是 通过 Gibbs 抽样 得 到 文档 集中 的 主题 和 特征 词 的 样本 ， 
算法 收敛 后 得 到 的 最 终 样 本 便 可 以 对 模型 进行 参数 估计 。 

通过 上 述 步骤 和 分 析 ， 针 对 本 文 实验 的 需求 ， 对 式 (4) 得 
到 的 文档 - 词 项 矩阵 ， 使 用 LDA 模型 对 预 处 理 后 的 文档 集 忆 进 
行 建 模 ， 从 而 得 到 文档 d, 的 主题 上 和 其 主题 概率 分 布 Pd |d,) ， 
其 中 4e7T,T={t,6,…,t} ， 并 得 到 主题 4 的 特征 词 w 及 其 特征 
词 概率 分 布 POw,|4)， 其 中 weW,W={w,w,…,w,}。 


2 基于 LDA 和 word2vec 的 主题 相关 度 计算 


LDA 模型 对 文档 的 表示 是 用 概率 的 形式 对 主题 和 主题 对 
应 的 特征 词 进行 抽取 ， 有 一 定 的 不 确定 性 ， 为 了 更 精确 地 表达 
文档 中 词 项 的 语义 信息 , 本文 引 入 word2vec 方法 更 好 的 表达 词 
与 词 之 间 的 语义 信息 。 通 过 该 方法 , 与 LDA 建 模 后 主题 的 特征 
词 进行 计算 词 项 之 间 的 相似 度 ， 最 后 得 到 主题 相关 度 。 
2.1 


word2vec 
近 几 年 ， 随 着 深度 学 习 的 迅速 发 展 ， 基 于 神经 网 络 的 自 特 
征 抽取 的 词 向 量 表示 方法 越 来 越 受 到 广大 研究 者 的 关注 。 
Mikolov 等 人 通过 借鉴 Bengio 提出 的 NNLM(Neural Network 
Language Model) 模 型 以 及 Hinton 的 Log Linear 模型 ， 提 出 了 


就 是 高 效 性 ，Mikolov 
练 上 千 亿 个 词 。 其 为 自然 语言 处 理 领 域 的 应 用 研究 提供 


工具 。 


词性 分 析 等 。 而 word2vec 另 一 个 特点 
等 [3 指出 一 个 优化 的 单机 版 本 一 天 可 训 


了 新 的 


word2vec 包含 了 两 种 训练 模型 ， 采 用 的 架构 模型 分 别 是 
CBOW(Continuous Bag-Of-Words) 模 型 和 Skip-Gram 模型 。 其 原 


i 2 
里 示意 图 如 图 2 所 示 。 
INPUT PROJECTION OUTPUT 
w(t-2) 
w(t-1) 
SUM 
wt) 
w(t+1) 
w(t+2) 
CBOW 


图 2 CBOW 模型 和 Skip-gram 模型 原理 示意 图 


INPUT PROJECTION OUTPUT 
w(t-2) 


wlt-1) 


wD 


wlt+1) 


wlt+2) 


Skip-gram 


从 图 2 可 以 明显 地 看 出 ，CBOW 和 Skip-gram 模型 均 包 含 


输入 层 、 投 影 


测 当 前 词 的 词 向 量 ， 即 将 当 
词 袋 的 形式 ， 将 训练 的 目 


和 输出 层 。 其 


中 ， 


CBOW 模型 通过 上 下 文 来 预 


前 词 上 下 文 对 应 的 连续 词语 表示 成 
标 向 量 选 为 上 下 文 词 向 量 的 求 和 。 而 


己 


Skip-gram 模型 


生成 词 


向 量 的 方式 恰好 与 CBOW 模型 相反 ， 


CE 


仅 通 过 当前 词 来 预测 其 上 下 文 。 通 过 这 两 个 模型 ，word2vec 就 


能 够 很 全 面 地 考虑 上 下 文 信 息 ， 


2.2 ”主题 相关 度 计 算 


姑 此 ,可 以 能 取得 较 好 的 效果 。 


在 对 


文档 进行 主题 相关 度 计 和 


之 前 , 需要 通过 word2vec 对 


EE 


文档 集 进行 训练 ， 从 而 得 到 词 项 之 间 的 语义 信息 。 
对 于 本 文 的 英文 语 料 而 言 ，word2vec 可 以 根据 词语 之 间 的 
空格 来 识别 不 同 的 词语 。 经 过 word2vec 训练 之 后 , 能 够 得 到 每 


个 词语 的 向 量 表示 ， 计 算 两 个 向 量 的 余弦 值 来 表示 两 个 词语 的 
语义 相似 度 距离 ， 余 弦 值 越 大 ， 表 示 两 个 词语 的 语义 越 相近 。 


例如 两 个 n 维 向 量 A(X Nash,) 和 DO) » 余弦 值 的 计 


算 公式 如 下 : 


将 经 过 训练 后 得 到 的 词 向 量 表示 信息 存储 到 文件 


Xi Nor 
Te (6) 
| 
中 ， 便于 


后 续 步 又 计算 词 向 量 的 相似 度 使 用 。 
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根据 上 面 得 到 的 信息 ， 对 每 篇 文档 的 每 个 词 项 WwW ， 利 用 
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d) 用 word2vec 训练 词 向 量 。 以 预 处 理 后 的 文档 集 作 为 输入 ， 


Mt 


word2vec 计算 该 词 项 和 在 i 主题 下 的 特征 词 w 的 余弦 相似 度 
cos(w,,w,) 。 则 词 项 w; 和 主题 1 的 相关 度 为 w; 和 在 t 下 的 各 个 


特征 词 的 余弦 相似 度 的 概率 加 权 和 5S(w,,t) ， 可 以 用 如 下 公式 
表示 : 
S(w,,t,)= YPCw, |£) xcos(w,,w,) (7) 


所 以 可 以 得 到 词 项 w% 和 文档 双 的 相关 度 , 即 w; 和 4d, 的 各 
个 主题 的 相关 度 的 概率 加 权 和 (0w,d,) ， 用 公式 表示 为 


Swd,) = PC1dJxSw) (8) 


最 后 把 文档 的 每 个 词 项 得 到 的 S(w,d,) 值 加 和 。 公 式 表 示 


5,=2S(w,d,) (9) 


3 ”跑题 检测 算法 


跑题 检测 算法 首先 对 文档 集合 进行 预 处 理 ， 通 过 预 处 理 后 
建立 文档 一 词 项 矩阵 , 接着 通过 LDA 模型 对 文档 集 建 模 , 得 到 
文档 的 主题 及 其 分 布 ， 和 主题 下 的 特征 词 及 其 分 布 。 再 用 
word2vec 对 文档 集 进 行 训练 并 保存 训练 的 结果 ， 然 后 把 LDA 
和 word2vec 得 到 的 信息 进行 组 合 。 最 后 根据 本 文 设置 选取 的 闪 
值 来 对 每 篇 文档 进行 筛选 ， 从 而 找 出 跑题 的 文档 。 

跑题 检测 算法 不 但 可 以 通过 LDA 得 到 文档 的 主题 信息 
还 可 以 通过 word2vec 训练 的 词 向 量 得 到 更 准确 的 词 项 包含 的 
语义 信息 ,以 上 是 对 于 作文 跑题 检测 有 很 好 的 效果 的 重要 因素 。 

跑题 检测 算法 的 具体 步 又 设计 如 下 : 

a) 首 先 对 文档 集合 进行 预 处 理 操 作 。 对 于 英文 文档 的 预 处 


理 ， 需 要 对 文档 中 的 内 容 按 空格 进行 分 词 、 将 每 句 中 的 首 个 单 
词 和 专 有 名 词 等 大 写字 母 和 单词 统一 转换 为 小 写 、 去 掉 the, a， 


an 等 停 用 词 、 去 掉 所 有 标点 符号 、 提 取 每 个 单词 的 词 干 (去 掉 
单词 的 复数 、-ing、-ed 等 形式 的 词 级 ) 等 操作 。 如 句子 “we all 
like the book, it is so interesting.”， 经 过 预 处 理 后 ， 结 果 为 “like 


book interest”。 
b) 对 预 处 理 后 的 文档 集合 建立 文档 - 词 项 和 矩阵。 文档 向 量化 
后 的 表示 结果 形 如 式 〈4) 所 示 ， 其 中 ， 甜 阵 中 的 第 i 行 表示 为 
第 i 篇 文档 ， 第 i 行 的 列 数 表示 为 该 文档 中 包含 词 项 的 个 数 ， 
第 i 行 的 第 j 列 对 应 第 i 篇 文档 中 的 第 j 个 词 项 。 
co) 进行 LDA 建 模 。 对 上 述 步 又 建 好 的 文档 - 词 项 矩阵 中 的 
每 篇 文档 进行 建 模 ， 由 式 (1)(2) 分 别 得 到 第 m 篇 文档 的 主 
题 概率 分 布 9, 和 第 个 主题 下 的 特征 词 的 概率 分 布 b& 的 值 , 根 
据 概 率 值 从 大 到 小 排序 ， 从 而 得 到 每 篇 文档 的 主题 及 其 概率 分 
布 和 特征 词 及 其 概率 分 布 。 例 如 一 篇 英文 文档 主题 概率 分 布 的 
60% 在 讨论 教育 ，40% 是 关于 孩子 ， 则 在 教育 主题 下 ， 会 出 现 
在 孩子 主题 下 ， 


“School、“students” “education” 等 特征 词 项 ; 


用 word2vec 进行 训练 , 输出 为 每 个 词 对 应 的 词 向 量 ,。 利用 生成 
的 词 向 量 , 通过 式 (6) 计算 和 指定 词语 之 间 的 距离 (相似 度 )。 
比如 指定 词语 为 “woman”， 将 显示 训练 后 的 文本 中 与 “woman” 
最 接近 的 词语 "man” 以 及 它们 之 间 的 余弦 距离 为 0.685。 训 练 后 
可 以 表达 文档 中 词 项 之 间 的 语义 信息 ， 变 成 向 量 信息 并 保存 。 
e) 用 LDA 和 word2vec 对 文档 进行 主题 相关 度 计 算 。 对 每 
篇 文档 的 每 个 词 项 用 word2vec 计算 其 与 LDA 建 模 后 的 第 i 个 
主题 下 的 各 个 特征 词 的 余弦 相似 度 , 利用 式 (7) 计算 各 个 特征 
词 的 概率 加 权 和 ,然后 按照 式 (8) 对 各 个 主题 的 概率 加 权 和 进 
行 计算 , 最 后 根据 式 (9) 把 每 个 词 项 得 到 的 主题 相关 度 进行 加 
和 确定 总 相关 度 ， 并 根据 阔 值 筛选 出 跑题 的 作文 。 
算法 中 的 LDA 模型 对 文档 集 建 模 ， 利 用 Gibbs 进行 抽样 ， 
间接 得 到 模型 参数 。 通 过 参数 估计 可 以 得 到 文档 中 不 同 主题 及 
其 概率 分 布 和 不 同 主题 的 特征 词 及 其 概率 分 布 ， 具 有 坚实 的 统 
计 学 基础 。 算 法 为 了 更 精确 的 表示 文档 中 的 语义 信息 ， 加 入 
word2vec 来 训练 词 向 量 的 方法 。 该 方法 采用 低 维 空间 表示 法 ， 
不 但 解决 了 维 数 灾难 的 问题 ， 而 且 还 挖 气 了 词 与 词 之 间 的 关联 
属性 ， 从 而 提高 了 文本 语义 上 的 准确 度 。 综 上 所 述 ， 算 法 结合 
了 LDA 和 word2vec 的 各 自 优点 ， 经 过 word2vec 训练 的 结果 
使 文档 中 词语 间 的 语义 关系 表达 的 更 准确 ， 使 得 LDA 建 模 后 
可 以 有 效 地 判断 文档 本 身 的 主题 是 否 更 切 题 ， 在 低 维 的 语义 空 
间 中 得 到 了 文档 的 主题 相关 度 ， 通 过 相关 度 可 以 检测 出 跑题 的 
文档 。 


4 ”实验 结果 及 对 比分 析 


本 文 实验 收集 了 6 个 不 同 题目 的 大 学 英文 作文 ， 每 个 题目 
205 篇 ， 一共 1230 篇 文档 。 每 篇 作文 都 有 人 工 做 好 标注 的 打分 
结果 , 每 个 题目 下 的 作文 都 有 一 定数 量 的 跑题 作文 , 满分 15 分 
的 作文 如 果 人 工 标 注 打 分 结果 为 5 分 以 下 本 文 就 认为 该 作文 是 
跑题 的 。 实 验 结果 检测 到 的 跑题 文档 是 为 了 和 人 工 标注 的 打分 
结果 中 的 跑题 文档 进行 对 比 ， 从 准确 率 、 查 全 率 征 值 综合 评 
价 分 析 ， 进 而 验证 实验 中 算法 的 有 效 性 与 实用 性 。 
其 中 准确 率 是 指正 确 检 测 出 跑题 的 相关 文档 数 与 检测 出 跑题 的 
文档 总 数 的 比例 ， 用 P 来 表示 准确 率 ， 查 全 率 是 指正 确 检 测 出 
跑题 的 相关 文档 数 与 所 有 跑题 的 相关 文档 数 的 比例 ， 用 R 表示 
查 全 率 。 假 设 用 7 来 表示 系统 正确 检测 出 的 相关 跑题 文档 数 ， 
] 4 来 表示 系统 检测 出 的 跑题 文档 总 数 ， 跑 题 相关 文档 的 总 数 


上 
用 B 来 表示 ， 则 准确 率 和 查 全 率 的 计算 公式 如 下 : 
P=Lx100% (10) 
A 
R= x100% (11) 
B 


从 式 (10) (11) 的 含义 上 得 知 ， 一 般 情 况 下 准确 率 越 高 、 
查 全 率 就 越 低 ， 而 查 全 率 越 高 、 准 确 率 就 越 低 。F 值 可 以 调和 


特征 词 项 有 “children”、“women”、“family” 等 。 


它们 互相 牵制 的 影响 , 是 一 个 兼顾 准确 率 和 碍 全 率 的 综合 指标 ， 
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录用 稿 曲 强 ,等 : 基于 LDA 和 word2vec 的 英文 作文 跑题 检测 
其 计算 公式 如 下 : 所 以 实验 最 终 用 下 值 作 为 最 后 的 评价 指标 。 实 验 中 通过 选取 不 
2PR 同 的 K 值 , 可 以 得 到 相应 的 五 值 , 不 同 主题 数 下 的 平均 五 值 的 
F= x100% (12) 二 
2 结果 如 图 4 所 示 。 


从 式 〈12) 可 知 ， 由 于 五 值 综合 考虑 了 准确 率 和 查 全 率 的 
结果 ， 当 其 较 高 时 则 说 明 算 法 比较 理想 。 


实验 中 LDA 模型 使 用 了 Gibbs 抽样 , 在 对 文档 主题 建 模 的 | 一人 人 


过 程 中 ， 首 先 假定 主题 数目 玉 为 2， 本 实验 中 超 参 数 w 取经 验 

值 (9 ，w=50/K ， 它 随 着 主题 数目 变化 ， 超 参数 也 取 固 定 栋 

的 经 验 值 01，Z =0.01, 为 了 确保 实验 结果 的 准确 性 ，Gibbs 

样 迭 代 次 数 设置 为 1000 次 。 ee 
在 利用 word2vec 训练 文档 集 的 时 候 ， 因 为 word2vec 提供 加 


图 4 ”不同 主 题 数 时 的 平均 万 值 


了 很 多 个 超 参数 来 调整 训练 过 程 ， 选 择 不 同 的 参数 对 训练 生成 
的 词 向 量 质量 以 及 训练 的 速度 都 会 有 所 影响 , 通过 查阅 文献 [18] 从 图 4 可 以 清晰 的 看 到 平均 已 值 随 着 不 同 主题 数目 变化 的 
可 以 得 知 word2vec 训练 时 的 不 同 参数 和 每 个 参数 所 代表 的 含 。 情况 ， 发 现在 主题 数目 为 15 的 时 候 ， 平 均 F 值 达 到 最 高 。 攻 
义 ,根据 本 实验 的 需求 , 用 word2vec 对 文档 集训 练 时 的 参数 设 。” 此 本 文 可 以 确定 最 佳 的 主题 数目 为 15。 同 时 在 实验 中 发 现 ， 随 


情况 结果 如 表 1 所 示 。 着 主题 数目 的 增加 实验 的 办 代 时 间 也 会 增长 。 
1 Modavoo 参半 没 首 情 计 实验 中 发 现 更 改 文档 的 主题 数目 K 值 时 , 超 参数 4 的 值 也 
pp 证 最 会 随 之 改变 。K 的 值 和 & 成 反比 的 关系 ,显然 的 值 越 大 ，a 
es ee Ep 的 什 越 小 ， 表 明 每 篇 文档 包含 更 多 的 主题 。 对 于 实验 中 每 个 主 
pn Te 题 下 的 特征 词 ， 在 文献 [19] 中 已 经 证 明 在 选取 5 个 特征 词 的 时 
eg oe 候 会 取得 较 好 效果 ， 所 以 在 本 实验 中 ， 本 文 统一 的 对 每 篇 文档 

i 的 每 个 主题 选取 5 个 特征 词 进行 实验 。 

通过 本 文 确定 的 最 佳 主题 数目 进行 实验 ， 实 验 结果 检测 到 
假定 主题 数 为 2 时 ， 按 照 图 3 设计 的 算法 ， 经 过 LDA ”的 跑题 文档 和 带 有 人 工 标注 打分 的 跑题 文档 对 比 后 ， 最 后 得 到 


对 文档 建 模 并 和 word2vec 组 合 后 ,通过 选取 一 定 的 阔 值 得 到 的 。” ”在 6 个 不 同 题目 下 跑题 检测 的 平均 准确 率 为 91.86%, 平均 查 全 
跑题 文档 和 人 工 标注 的 结果 进行 对 比 ， 根 据 式 (10) ~ (12) 得 率 为 88.78%， 平 均 五 值 为 89.81%。 


到 相应 的 跑题 检测 的 准确 率 、 查 全 率 和 王 值 ， 最 后 计算 出 6 个 本 文 还 通过 基于 向 量 空间 模型 的 TF-IDF 算法 进行 了 对 比 
题目 的 平均 结果 。 结 果 如 表 2 所 示 。 实验 。 对 比 实验 用 同样 的 英文 作文 文档 作为 语料库 ， 首 先 对 语 
料 库 进 行 预 处 理 ， 再 利用 TF-IDF 算法 把 文档 表示 成 关于 词 项 


表 2 主题 数 为 2 时 的 跑题 检测 结果 
题目 1 题目 2 题目 3 题目 4 题目 5 题目 6 平均 值 


准确 率 94.74% 93.33% 93.75% 86.67% 61.54% 75% 84.17% 


的 向 量 , 其 次 待 检测 作文 分 别 与 给 定 5 篇 范文 计算 余弦 相似 度 ， 
然后 根据 相似 度 结果 做 均值 处 理 作为 该 文档 的 结果 ， 最 后 根据 
阔 值 筛选 出 对 应 题目 的 跑题 文档 。 与 本 实验 使 用 的 评价 方法 相 
同 ， 该 实验 最 后 用 下 值 作为 评价 指标 ,通过 6 组 实验 所 得 到 的 
跑题 检测 平均 政 值 为 77.4%。 
从 表 2 中 可 知 ， 主 题 数 为 2 的 时 候 跑 题 检 测 结果 为 平均 准 本 文 方法 与 基于 向 量 空间 模型 的 TF-IDF 算法 的 五 值 对 比 
确 率 为 84.17%， 平 均 查 全 率 为 89.40%， 平 均 已 值 为 86.55%。 ”结果 如 图 5 所 示 : 
为 了 使 跑题 检测 的 效果 达到 最 佳 ， 实 验 中 通过 改变 文档 的 主题 
数 ， 从 而 得 到 主题 数 与 下 值 的 变化 趋势 ， 然 后 确定 LDA 建 模 


查 全 率 94.74% 100% 100% 86.67% 80% 75% 89.40% 


F 值 94.74% 96.55% 96.77% 86.67% 69.57% 75% 86.55% 


时 最 佳 的 主题 数目 ， 最 后 根据 选取 的 最 佳 的 主题 数 得 到 实验 的 a0 
最 终结 果 。 

因为 一 篇 文档 会 有 多 个 主题 ,实验 改变 文档 主题 数 天 的 值 ， EE 
天 的 值 依次 选取 2、3、5、10、15、20、25、30。 通 过 不 同 的 主 30 
题 数 进行 实验 ， 选 取 一 定 的 阔 值 后 分 别 得 到 相应 的 跑题 文档 ， 。 
作为 实验 跑题 检测 结果 。 根 据 之 前 人 工 标注 好 的 打分 结果 进行 0 


VSM LDA+ word2vec 


上 


对 比分 析 ， 得 到 每 个 题目 的 准确 率 、 查 全 率 和 王 值 ， 最 后 算出 
相应 评价 方法 的 平均 值 。 因 为 值 综合 考虑 了 准确 率 和 查 全 率 ， 


图 5 不 同方 法 的 严 值 对 比 


:201805.00285v1 
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录用 稿 


根据 两 个 方法 的 实验 结果 对 比分 析 ， 从 图 5 中 可 以 看 到 本 


文 提 出 的 算法 效果 更 好 ， 可 以 准确 的 分 析出 文档 中 词 项 的 语义 


信息 ， 


档 是 否 


还 可 以 得 到 文档 中 的 主题 分 布 情况 ， 这 些 因素 对 检测 文 
题 很 有 帮助 。 在 保证 一 定 的 准确 率 的 情况 下 ， 本 文 的 


算法 相 比 向 量 空 


间 模 型 的 TF-IDF 算法 ， 可 以 检测 出 更 多 的 跑 


题 作 文 ， 尺 值 有 明显 的 提升 ， 算 法 具有 可 靠 性 。 在 对 比 实验 中 


发 现 ， 其 中 的 两 组 实验 ， 本 文 提出 的 方法 找到 了 该 题目 下 的 所 
有 跑题 作文 ， 准 确 率 较 高 ， 而 基于 向 量 空间 模型 的 TF-IDF 算 
法 并 没有 检测 到 该 题目 下 的 所 有 跑题 作文 ， 在 未 检测 到 的 作文 
中 ， 发 现 有 0 分 作文 ， 虽然 作文 的 内 容 不 是 空白 的 ， 但 是 其 主 
题 是 跑题 的 ， 本 文 提出 的 算法 就 可 以 很 好 地 检测 到 这 些 文档 。 


这 一 事实 也 反映 了 基于 向 量 空间 模型 的 TF-IDF 算法 的 一 个 最 


大 的 缺点 ， 它 仅仅 是 通过 TF( 词 频 ) 和 IDF( 道 文 档 频 率 ) 计 
算 ， 不 能 很 有 效 地 判断 文档 中 词 项 本 身 的 语义 信息 ， 具 有 一 定 
的 局 限 性 。 


本 文 的 跑题 检测 算法 检测 到 的 跑题 作文 可 以 达 88% 以 上 ， 


准 


E 确 率 也 比较 高 ， 同 时 比 向 量 空间 模型 下 的 TF-IDF 算法 更 具 


有 效 性 ， 
这 可 以 为 教师 阅卷 节 4 


5 


题 及 其 特征 词 , 并 用 word2vec 对 其 训练 , 训练 后 的 结果 能 更 准 
确 地 表达 词语 之 间 的 语义 ， 再 
主题 相关 度 计算 ， 实 验 结果 表明 ， 通 过 该 算法 


可 以 在 短 时 间 内 高 效 的 筛选 出 相应 题目 的 跑题 作文 ， 
了 很 多 时 间 。 


结束 语 


本 文 利用 LDA 对 文档 建 模 ， 可 以 方便 地 提取 出 文档 的 主 


用 LDA 和 word2vec 对 文档 进 和 
了 效 地 检测 了 跑 


bh 


题 作文。 本 文 提出 的 算法 对 英语 教学 包括 英语 竞赛 的 阅卷 具有 


智能 化 辅助 作 / 
客观 、 公 正 、 
的 跑题 作文 筛选 出 来 ， 减 少 了 教师 阅卷 的 主观 因素 影响 ， 


j , 该 算法 通过 计算 机 可 以 有 效 地 模拟 教师 快速 、 
自动 地 对 英文 作文 进行 处 理 ， 并 且 把 相应 题 


进而 


提高 了 阅卷 的 效率 ， 弥 补 了 人 工 无 法 在 短 时 间 内 对 大 量 英 文 作 


文 快速 有 效 的 检测 跑题 方法 的 缺陷 。 


没有 考虑 更 好 的 确定 主题 数 的 计算 理论 。 考 虑 到 


本 文 在 用 LDA 建 模 确定 主题 数 时 仅 用 FF 值 作为 参考 ， 而 
LDA 模型 很 


容易 扩展 , 下 一 步 工 作 将 准备 在 LDA 模型 的 基础 上 , 继续 研究 


且 改 进 其 对 文档 建 模 及 主题 数 确定 的 方法 。 
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